Meta AI发布Audio2Photoreal,通过对话音频即可生成全身逼真的虚拟人物表情与动作
你是否有遇到过打字或者语音聊天时,开了一个玩笑,对方却误以为真,导致矛盾反正的情况?通过打字或者音频聊天时,我们通常只能猜测对方的态度和语气,容易引起误解。
项目主页:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/
论文地址:https://arxiv.org/pdf/2401.01885.pdf
Github地址:https://github.com/facebookresearch/audio2photoreal/
摘要
简介
相关工作
逼真的全身运动合成
逼真对话数据集
实验
- FD g:由生成和真实静态姿态之间的分布距离衡量的“几何”真实感。我们直接计算表达式R df和姿态空间R d j × 3中的Frechet距离(FD)。
- FD k:“动态”运动现实主义。与上述类似,但在运动序列的速度分布计算表达式R T×df和姿态空间R T × dj × 3。
- Div g:“几何”姿势多样性。我们随机采样一个运动序列中的30个表情和姿态对,并计算对之间的平均L2距离,以衡量集合中静态表情/姿态的多样性。
- Div k:表情/姿势序列的时间变化。按顺序测量运动的量。
- Div sample:不同样本之间的多样性。我们对同一音频生成的样本进行分组,并计算样本之间的方差。
- 随机:训练集中的随机运动序列。
- KNN:一种通常用于合成的分段搜索方法。给定输入音频,从训练集中找到其最近的邻居,并使用其相应的运动段作为预测。我们使用来自Wav2Vec的音频特征对音频进行编码。
- SHOW:基于VQ-VAE的方法,使用transformer自回归输出以扬声器音频为条件的运动。他们有脸、身体和手的不同模型。考虑到SHOW是在独白上训练的,我们为我们的领域重新训练他们的模型。
- LDA:独白环境下训练的音频到运动扩散模型。我们重新训练以适应我们的领域。
- 我们的Uncond:(消融)没有音频或引导姿势条件的无条件运动生成。
- 我们的w/o P:(消融)音频条件运动扩散没有引导姿态条件。类似于LDA。
- 我们的w/o A:(消融)引导姿势条件运动扩散模型,但没有音频条件。类似于扩散填充方法。
总结
本文介绍了一种基于音频条件的生成对话手势的方法,结合了向量量化和扩散的优点,生成更具表现力和多样性的动作。作者使用了一个新的多视角、长形式对话数据集进行训练,可以进行逼真的重建。该方法可以产生准确匹配对话动态的多样化面部、身体和手部动作。作者还强调了逼真性在评估细粒度对话动作方面的重要性。
局限性和伦理考虑。模型仅适用于短程音频,无法生成需要长程语言理解的手势,例如计数。此外,该工作仅限于数据集中的四个主题的逼真生成,以解决伦理问题。作者希望通过发布完全参与者同意的数据集,为研究人员提供在伦理环境下探索逼真动作合成的机会。